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ELE LDA 主题 模型 的 学 木 谱系 内 知识 传承 研究 “ 


E 刘 俊 婉 ”杨波 EEIE 徐 硕 


北京 工业 大 学 经 济 与 管理 学 院 ”北京 100124 


以 谈 家 桢 为 核心 的 遗传 学 学 术 谱 系 为 例 


摘要 : [目的 /意义 ] 学 术 谱系 以 知识 传承 的 方式 助 推 科 学 发 展 。 研 究 知识 传承 特征 ,探索 学 术 谱系 传承 模 
式 及 其 学 术 产 出 影响 效能 ,为 探索 人 才 成 长 规律 及 人 才 政 策 制定 提供 参考 。[ 方 法 /过 程 ] 基于 LDA 主题 模型 ， 
以 遗传 学 领域 谈 家 桢 为 核心 的 学 术 谱系 成 员 发 表 的 期 刊 文献 为 研究 对 象 , 对 该 谱系 成 员 的 研究 主题 进行 抽取 ， 
借鉴 生物 学 “遗传 ”与 “变异 ”的 概念 ,根据 主题 相似 度 将 谱系 成 员 划 分 为 “遗传 学 者 ”变异 学 者 ”和 “ 非 遗 传 非 
变异 学 者 ” ,并 对 三 种 学 考 的 学 术 绩 效 进行 分 析 。 [ 结果 /结论 ] 分 析 结 果 表 明 , 谈 家 桢 学 术 谱 系 内 “遗传 学 者 ” 
和 = 变异 学 者 的 学 术 绩 效 相对 较 高 ; 非 遗 传 非 变 开学 者 ”的 数量 占 比 最 多 ,但 学 术 绩 效 相对 较 低 ;“ 遗传 学 者 ” 


与 9 变异 学 者 "在 不 同 主题 下 的 分 布 具有 明显 差异 。 


EDD 知识 传承 “主题 模型 ”遗传 学 
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“ 吾 生 也 有 涯 ,而 知 也 无 涯 ”, 在 世界 无 穷 奥秘 面 
前 漠 人 的 力量 是 渺小 的 。 但 涓 流 可 至 沧 淄 水 ,知识 在 
人 闫 繁衍 生息 中 不 断 积累 ,通过 在 不 同 谱系 、 流 派 中 代 
人 传承 ,铸就 当今 繁盛 的 科学 体系 。 中 国 科 学 技术 的 
发 展 历 史 , 具 体 到 每 一 个 研究 领域 ,是 以 各 学 科 带 头 人 
所 倒立 的 学 术 谱 系 的 建立 .拓展 和 衍生 的 过 程 。 学 术 
谱系 是 学 术 共同 体 自觉 认同 的 范式 在 时 间 上 的 延续 和 
传递 , 它 是 构成 学 术 积 累 的 必要 条 件 ""。 学 术 谱系 内 
关系 的 确认 是 通过 知识 在 老师 与 学 生 之 间 由 老师 输送 
至 学 生 的 事实 为 基础 建立 的 。 学 术 谱 系 研究 具有 重要 
的 学 术 价值 , 它 突 破 了 以 往 科学 史 研 究 的 边界 ,涉及 由 
学 术 谱 系 传承 过 程 中 数 代 科 学 家 所 构成 的 庞大 的 研究 


科学 研究 领域 纷 坚 多样 ,不 同 研究 领域 的 学 术 谱 

系 、 同 一 研究 领域 中 各 学 术 谱系 之 间 的 传承 方式 都 有 
着 或 多 或 少 的 区 别 , 但 知识 自 上 而 下 的 流动 方向 却 是 
吾 古 不 变 的 。 在 知识 的 流动 过 程 中 作为 接收 方 的 学 生 
对 信息 的 积累 与 运用 不 同 ,导致 科研 绩效 也 会 存在 差 
异 ,这 两 者 之 间 是 否 具 有 相关 性 ? 早期 学 术 谱系 的 研 
究 通常 致力 于 寻找 某 些 成 功 学 者 的 成 长 历程 与 学 术 起 
J^ ,这 些 研 究 在 定性 基础 上 阐述 学 者 对 研究 对 象 所 
获 成 就 的 个 人 观点 ,由 于 缺乏 足够 的 数据 支撑 ,并 未 得 
普 适 的 人 才 发 展 规律 。 随 着 “bh 指数 "等 评价 指标 以 
及 诸如 Academic Tree 等 学 术 谱 系数 据 库 的 出 现 ,定量 
化 的 学 术 谱 系 分 析 成 为 可 能 ”。 至 此 ,部 分 学 者 开始 
利用 科研 文献 作为 切入 点 展开 与 学 术 谱 系 评价 有 关 的 
量化 研究 。 由 于 学 术 谱 系 量化 研究 出 现 较 晚 ,发 展 尚 


群体 ,在 时 段 上 考察 历时 达 数 十 年 乃至 近 百 年 的 学 术 
谱系 的 发 生发 展 过 程 。 梳 理学 科 谱 系 关系 ,厘清 知识 
传承 脉络 ,探究 不 同 知识 传承 模式 对 学 术 产 出 的 影响 
效能 ,对 于 探究 科技 人 才 成 长 规律 以 及 科技 政策 制定 
具有 重要 参考 价值 。 


不 成 熟 , 目前 的 学 术 谱系 量化 研究 主要 集中 在 通过 学 
术 文 献 的 合作 与 引用 关系 ,建立 学 者 之 间 的 关系 网 络 ， 
进而 在 系统 .团体 .个 人 三 个 关系 层面 展开 研究 。 例 
如 :R. D. Malmgren 等 通过 计量 学 者 教 职 生涯 中 的 学 
生 数 量 以 及 学 生 的 学 术 影响 力 发 现 ,学 者 在 学 术 生 涯 


* 本 文系 国家 自然 科学 基金 青年 项 目 “ 共 生 视 角 下 的 院士 科学 合作 网 络 结构 与 演化 趋势 研究 :以 中 美 两 国 科 学 院 院 士 为 例 ”( 项 目 编 号 : 
71603015) 和 北京 市 自然 科学 基金 项 目 “ 基 于 技术 共生 网 络 结构 探测 和 演化 的 新 兴 趋 势 识别 研究 ”( 项 目 编号 :9182001 ) 研究 成 果 之 一 。 

作者 简介 : 刘 俊 婉 (ORCID: 0000 -0001 -7911 -4681), 副 教授 ,博士 ,E-mail:liujunwan@bjut. edu. en; 杨波 (ORCID:0000 - 0003 - 2609 - 
3885) ,硕士 研究 生 ; 王 菲菲 (ORCID :0000 -0002 -1717 -9719 ) ,副教授 ,博士 ; 徐 硕 (ORCID: 0000 —0002 -8602 -1819 ) , 副 研 究 员 ,博士 。 


收 稿 日 期 :2017 -11-15 修 回 日 期 :2018 -01 -24 本 文 起 止 页 码 :76 -84 本 文责 任 编辑 : 王 善 军 


76 


刘 俊 婉 , 杨波 , 王菲 菲 , 等 .基于 LDA 主题 模型 的 学 术 谱 系 内 知识 传承 研究 


[J]. 图 书 情报 工作 ,2018 ,62(10):76 一 84. 


ChinaX ive (/EHBTI 
sicco e GODS TERITI 


的 前 2/3 时 期 相 较 于 后 1/3 时 期 具有 更 强 的 学 术 繁 衍 


8217. 。 国 内 学 者 运用 社会 网 络 分 析 方法 对 第 四 纪 学 
术 谱 系 的 合作 网 络 特征 以 及 学 术 传承 分 析 显 示 , 处 于 
学 术 大 本 营 的 学 生 与 导师 的 合作 具备 长 期 稳定 的 特 
征 ,合作 强度 明显 高 于 离开 学 术 大 本 营 到 其 他 单位 工 
ERZES, C. Sugimoto 等 通过 建立 谱系 树 的 方法 ， 
分 析 谱系 成 员 研究 领域 的 转移 特征 并 将 其 用 于 跨 学 科 
理论 的 研究 。 上 述 研究 对 于 学 术 谱 系 成 员 的 关系 网 络 
结构 等 外 部 特征 研究 较 多 ,但 还 未 对 谱系 内 以 文本 为 
载体 的 思想 .知识 的 传承 进行 量化 。 因 此 ,笔者 选取 中 
国 近代 遗传 学 领域 以 谈 家 桢 为 核心 的 学 术 谱 系 为 研究 
对 象 ,通过 主题 模型 的 方法 ,对 谱系 内 师 生 之 间 以 及 学 


生 毕 业 前 后 研究 主题 的 变化 进行 研究 ,探索 谱系 发 展 
过 稳 中 谱系 成 员 研 究 主题 的 变化 程度 ,以 及 研究 主题 
变 信 程度 与 其 科研 绩效 的 关系 ,以 此 次 索 谱系 内 知识 
舍 的 规律 性 特征 ,探寻 科技 人 才 的 成 长 路 径 ,从 而 为 
各 管 理 等 相关 部 门 制定 科技 人 才 政策 提供 参考 。 


2 ”研究 方法 与 数据 获取 


2《D 学 术 谱系 知识 传承 研究 方法 与 技术 路 线 
CJ 本 研究 利用 师 生 关系 数据 构建 学 术 谱 系 树 ,并 从 
谱 允 内 学 者 的 论文 标题 ,摘要 和 关键 词 抽取 论文 特征 
许 . 沸 而 根据 论文 与 学 者 的 对 应 关系 构建 学 者 特征 记 
库 全 通过 十 折 交 又 验证 的 方法 获得 LDA ( Latent 
Difehlet Allocation) “主题 模型 的 最 佳 主题 数量 。 在 
此 大 而 上 通过 LDA 主题 模型 获取 每 一 位 学 者 在 国定 
ty E 的 主题 分 布 向 量 ,使 用 JS(Jensen-Shannon ) 距离 
方 沾 获得 不 同学 者 对 应 向 量 之 间 的 距离 ,进而 获得 两 
学 者 之 间 的 主题 相似 度 并 依 此 将 学 者 划分 为 “遗传 学 
者 “ 非 遗 传 非 变异 学 者 "和 “变异 学 者 "。 最 后 ,对 分 
局 不 同类 型 学 者 的 学 术 绩效 和 总 体 主题 分 布 进行 了 特 
征 分 析 。 具 体 研究 路 线 如 图 1 所 示 , 分 为 4 个 部 分 : 数 
据 获取 、 数 据 预 处 理 .主题 抽取 与 相似 度 计算 特征 分 
析 。 

数据 获取 分 为 两 部 分 :谱系 数据 获取 与 文献 数据 
获取 。 学 术 谱系 的 研究 基础 需要 在 广泛 扎实 收集 史 
FL .确定 谱系 代 际 关系 的 基础 上 识别 并 绘制 出 学 术 谱 
ARE ,该 步骤 的 关键 是 要 确保 数据 的 真实 性 。 而 期 乔 
文献 是 学 者 阶段 性 研究 成 果 的 主要 载体 ,是 科学 知识 
在 学 术 共同 体 中 更 新 ,传播 和 交流 的 主要 形式 ,是 学 者 
的 重要 学 术 产 出 。 为 了 对 谱系 成 员 的 知识 传承 进行 研 
究 ,将 谱系 内 学 者 发 表 的 所 有 中 文 期 刊 文献 及 其 研究 
生 学 位 毕业 论文 作为 研究 对 象 。 


SERERE) “从 名 
息 


ETEEN 
L ARNE 度 与 h 指 数 的 
dt 相关 性 分 析 研究 


Dx BE 
EET 
此 4T 
EB 
3E 
3E 


1 学 术 谱 系 知识 传承 研究 路 线 图 


数据 预 处 理 主要 涉及 自然 语言 预 处 理工 作 , LDA 
主题 模型 的 数据 输入 是 以 特征 词 为 代表 的 文档 集合 。 
本 模型 输入 数据 样本 分 为 两 种 :中 集合 中 的 每 一 个 文 
档 对 应 一 位 学 者 的 全 部 论文 信息 ,此 样本 用 来 分 析 学 
者 与 其 导师 研究 方向 的 差异 性 ;@ 集 合 中 的 每 一 个 文 
档 对 应 一 位 学 者 毕业 前 的 全 部 论文 信息 或 毕业 后 的 全 
部 论文 信息 ,用 来 分 析 学 者 毕业 前 后 研究 方向 的 差异 
性 。 两 个 样本 中 各 文档 间 不 具有 先后 顺序 差别 ,学 者 
研究 方向 的 不 同 在 文本 层次 中 体现 为 特征 词 集合 的 差 
异 。 数 据 预 处 理 主要 包含 对 学 者 文献 的 文本 分 词 以 及 
去 停 用 词 两 部 分 操作 。 在 文本 分 词 过 程 中 需要 在 特征 
词 过 度 切 割 及 切 词 粒度 过 小 中 合理 进行 取舍 。 去 停 用 
词 的 过 程 中 排除 语气 助词 .副词 .介词 .连接 词 等 噪音 
词汇 的 干扰 。 

通过 LDA 主题 模型 算法 获取 每 位 学 者 对 应 的 研 
究 主题 分 布 向 量 , 在 此 基础 上 通过 向 量 相似 度 可 以 定 
量 描述 老师 与 学 生 ,学 生 毕 业 前 后 研究 方向 的 变化 、 知 
识 传承 的 程度 。LDA 作为 一 种 非 监督 的 机 絮 学 习 方 
法 ,可 以 用 来 识别 大 规模 文档 集 或 语料库 中 潜藏 的 主 
题 信息 。 为 达到 本 文 的 研究 目的 ,论文 将 LDA 模型 中 
的 文档 层 蔡 换 为 以 谱系 学 者 所 发 表 的 论文 集 为 实体 的 
作者 层 ,每 一 个 作者 代表 其 论文 集 的 主题 .关键 词 摘 
要 的 集合 ,此 转换 实际 与 AT 模型 (Author Topic Mod- 
e)" 原理 一 致 。 模 型 假设 作者 是 若干 主题 的 混合 4 
fti ( Author-Topic ) ,而 主题 又 是 关于 单词 的 概率 分 布 
(Topic-Word) 。 这 种 假设 使 得 作者 数据 集 被 投影 到 
主题 空间 ,从 而 降低 了 大 规模 数据 处 理 过 程 的 时 间 
复杂 度 ”。 其 中 , 超 参 数 a、 超 参数 8、 作者 主题 分 布 
6 主题 - 词汇 分 布 e 均 为 隐 含 变量。 包含 M 个 作者 
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的 作者 集 D = d, idi d, end] ,这 些 作者 的 研究 分 
布 于 kK 个 主题 2= bz unus s 作者 文本 集中 
的 所 有 特征 词 构成 了 一 个 词汇 表 W = cs ss, 
vy 。 则 每 个 作者 所 对 应 的 概率 密度 函数 如 公式 
(1) 所 示 : 

P(w | a 8) 2 [PO | œ) CITEPG, | 0) PCv, 
2) 8)d0 公式 (1) 


J(P10) = 二 [PCP1O+FOIP) ] 


2p, 
Pa +q 


1 2 : 
-y Xl. AX 


T Pn td, 
学 者 主题 相似 度 Sim(P,@) 计 算 如 公式 (5 ) 所 示 ， 
HB P, 分 别 为 两 学 者 的 主题 分 布 向 量 。 
Sim(P,Q) = 1-JS(P| Q) 公式 (5) 
特征 分 析 分 为 两 部 分 :中 学 者 主题 相似 度 与 学 者 


上 述 方法 原理 与 AT 模型 一 致 ,但 没有 直接 使 用 
该 模型 进行 主题 抽取 ,原因 在 于 :AT 模型 支持 对 一 篇 
论文 中 的 多 作者 研究 主题 分 布 的 测度 ,但 并 没有 考虑 
不 同 署名 顺序 的 学 者 对 论文 的 贡献 是 不 同 的 ,因此 AT 
模型 存在 一 定 的 局 限 性 ,最 终 的 测度 结果 会 产生 一 定 
的 偏差 。 基 于 此 ,笔者 在 LDA 模型 的 基础 上 分 析 作 者 
Dr ER DEN 

应 用 LDA 进行 主题 建 模 时 ,主题 个 数 是 由 建 模 者 
指 守 的 。 确 定语 料 库 的 最 优 主 题 个 数 是 构建 主题 模型 
和 次 须 考虑 的 重要 问题 之 一 。 本 研究 采用 统计 语言 模 
型 蚌 常 用 的 评价 指标 即 困惑 度 ( Perplexity) 来 评价 模型 
性 所 , 确 定 最 佳 主题 个 数 。 困 惑 度 分 析 可 以 表征 生成 
模 测 的 质量 ,本 研究 采用 十 折 交 叉 验 证 (将 学 者 文献 数 
握 乔 随机 分 成 10 等 份 ,依次 使 用 其 中 9 份 数据 作为 训 
继 岗 型 ,另外 的 1 份 数据 作为 测试 模型 ) 的 方式 进行 验 
iE 10 次 困惑 度 分 析 结果 的 平均 值 作 为 最 终结 果 困 
惑 肛 的 数值 。 其 实际 代表 文档 集中 包含 句子 相似 性 几 
何 岁 值 的 倒数 , 越 低 的 困惑 度数 值 表示 模型 的 效果 越 
好 之 。 对 于 测试 集 的 M 个 作者 ,困惑 度 定义 如 公式 
(30 所 示 ; 


Ze 
UE A 
公式 (2) 
其 中 ,D,, 为 作者 测试 集 , 即 6 623 篇 作者 文献 的 
集合 ,w, 代表 第 m 个 作者 语 料 中 的 单词 数目 ,P(w,,) 
代表 LDA 产生 该 作者 文本 集 的 概率 ,如 公式 (3) 所 示 : 
Plw,) = TEX p(w | z=h)p(s, =k | 1w,) 
公式 (3) 
X. Wang 和 A. Mccallum 通过 实证 分 析 验 证 了 JS 
距离 相对 欧式 距离 .余弦 距离 等 在 学 者 主题 向 量 的 区 
分 度 方面 更 具 优势 "" ,因此 笔者 采用 JS 距离 来 衡量 学 
者 之 间 主 题 的 相似 度 。 设 8 为 作者 集 D 在 主题 集 Z 
上 的 全 体 离散 概率 分 布 , 则 对 任意 P,Q e 8,JS 距离 的 
计算 如 公式 (4) 所 示 : 


perplexity( D,,) = e| 
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产 出 绩效 的 相关 性 分 析 。 通 过 学 术 谱 系 树 中 的 师 生 关 
系数 据 与 已 获取 的 主题 相似 度 集合 ,计算 老师 与 学 生 
的 研究 主题 相似 度 和 学 生 毕 业 前 后 的 研究 主题 相似 
度 。 学 者 主题 相似 度 则 在 对 两 个 学 者 研究 方向 与 研究 
领域 的 一 致 性 一 一 知识 传承 程度 进行 度量 ,并 结合 生 
物 学 “遗传 "与 "变异 "概念 ,将 学 者 划分 为 遗传 学 者 ” 
“ 非 遗 传 非 变异 学 者 ”以 及 “变异 学 者 ”。 通 过 已 有 文 
献 集合 数据 获取 每 位 学 者 的 h 指数 作为 学 者 的 产 出 绩 
效 测度 指标 。 在 此 基础 上 分 析 知 识 “ 遗 传 ”知识 “ 变 
异 " 与 学 者 学 术 绩效 的 相关 性 。 包 遗传 与 变异 学 者 的 
主题 分 布 研究 。 绘 制 三 类 学 者 的 研究 主题 分 布 图 , 比 
较 不 同类 别 的 学 者 在 不 同 主题 上 分 布 的 差异 性 。 同 
时 ,对 整个 谱系 研究 主题 的 分 布 做 一 个 宏观 的 分 析 。 
2.2 数据 获取 

本 项 研究 的 学 术 谱 系数 据 来 源 于 中 国 科 协 “ 当代 
中 国 科 学 家 学 术 谱 系 研究 ”课题 的 项 目 成 果 , 该 项 目 成 
果 对 遗传 学 、 医 学 化学、 物理 以 及 农学 5 个 领域 的 学 
术 谱 系 进行 了 系统 梳理 ,从 中 可 以 找到 清晰 的 遗传 学 
谱系 成 员 脉络 和 代 际 关系 ,笔者 选取 遗传 学 领域 中 发 
展 历史 最 久 、 史 料 最 全 ,规模 最 大 的 谈 家 桢 学 术 谱系 作 
为 研究 对 象 。 

谈 家 桢 1932 年 毕业 于 北京 燕 京 大 学 研究 院 并 获 
硕士 学 位 ,1936 年 获得 美国 加 州 理工 学 院 博士 学 位 ， 
50 年 代 建立 了 中 国 第 一 个 遗传 学 专业 ,1999 - 2008 年 
任教 浙江 大 学 生物 学 系 。 谈 家 桢 先生 60 年 的 教学 生 
涯 中 为 中 国 遗传 学 领域 培养 了 众多 学 术 精 天 ,例如 在 
作物 遗传 育种 上 有 突出 贡献 的 季 道 藩 \ 汪 丽 泉 、 庸 绝 等 
30 余人 。 如 今 , 谈 家 桢 遗传 学 谱系 已 有 前 后 5 代 成 员 ， 
能 够 获得 详细 师承 信息 的 就 有 532 位 。 本 研究 获得 了 
谈 家 桢 学 术 谱系 内 532 名 学 者 的 姓名 学位、 获取 学 位 
时 间 ` 获 取 学 位 所 在 院 校 . 导师 姓名 等 有 效 信息 。 笔 者 
定义 师 生 之 间 的 关系 为 代 际 间 关 系 , 其 三 代 谱 系 树 见 
图 2。 

在 确定 谱系 树 的 基础 上 ,本 项 研究 获取 谱系 内 学 
者 所 有 发 表 的 期 刊 文献 信息 , 该 数据 从 中 国 知 网 (CNKI) 
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图 2 谈 家 桢 学 术 谱系 树 


逐一 检索 获得 。 鉴 于 谱系 成 员 数量 庞大 ,本 研究 选取 
了 以 谈 家 桢 作为 第 一 代 谱系 成 员 延 续 至 第 三 代 的 共计 
23 生 名 谱系 成 员 作为 研究 对 象 。 在 中 国 知 网 (CNKI) 上 
VESSA 名 学 者 的 姓名 发 表 文 献 时 间 , 主 题词 .作者 机 
构 硒 信息 作为 检索 要 素 , 以 (SU = “遗传 " + “基因 ?+ 
CONA? + 染色体 + “ 甲 基 ” + “突变 ”+ RNA? + 
"EDS + “变异 ' + RETO) AND (AU = “作者 姓 
rS AND (AF =“ 作 者 机 构 ”) AND (YE BETWEEN 
(£f960* ，2017 ) ) 作 为 检索 式 进行 文献 检索 ,同时 将 
学 者 的 导师 姓名 、 获 取 学 位 的 时 间作 为 判别 因素 辅 以 
人 CH 手 动 旺 别 以 消除 重 名 带 来 虚假 信息 的 影响 ,共计 
获得 了 6 623 篇 期 刊 文献 数据 (包括 文献 的 题目 .关键 
LV PN 发 表 期 刊 , 被 引 频次 等 ) 。 需 要 说 明 的 是 , 研 
究 租 始 , 希 望 对 谱系 内 成 员 发 表 的 SCI 论文 进行 分 析 ， 
在 Yeb Of Science( WOS ) 数据 库 中 以 ( (SU = genetics & 
hefeditism) AND 语种 :( English) AND 文献 类 型 : (Ar- 
ticle) ) 作为 高 级 检索 式 进行 检索 , 共 获 得 463 214 篇 路 
传 学 领域 文献 ,文献 数量 庞大 。 鉴 于 中 国学 者 姓名 在 
SCI 数据 库 中 的 重 名 现象 严重 , FL 2006 年 之 前 的 SCI 
论文 没有 中 国 作者 的 姓名 全 称 ,再 加 上 作者 所 在 机 构 
名 称 形式 多 变 , 因 此 姓名 消 歧 工 作 进展 困难 ,精准 获取 
作者 发 表 SCI 论文 的 全 面 信息 比较 困难 ,同时 学 术 谱 
系 成 员 在 CNKI 数据 库 发 表 的 论文 信息 能 够 满足 本 项 
研究 对 数据 样本 的 要 求 。 鉴 于 上 述 原因 ,本 研究 选用 
谱系 成 员 发 表 的 CNKI 论文 集 作为 研究 对 象 。 
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识 传承 分 析 
以 谈 家 桢 为 核心 的 学 术 谱系 LDA 主题 分 析 
首先 ,针对 文献 数据 集 的 特征 , 自 编 Python 脚本 ， 


3.1 


结 


合 jieba 中 文 分 词 jieba 词性 标注 进行 数据 预 处 理 操 


| pus 词 .连接 词 的 基础 上 最 终 共 获得 
第 = 代 一 234 位 学 者 的 46 万 多 个 特征 词 。 
| 采用 交叉 验证 的 方法 评 佑 
并 而 冰 | 、 代 际 间 模型 的 性 能 ,在 主题 数量 K 分 别 
刘 木 根 | £ 关系 
TE | 77] 245.10,15,20,25.30 的 情况 下 
李红梅 | pe — 
ue 进行 试验 ,得 到 不 同情 况 下 的 困 
d Mc 惑 度 。 实 验 结果 如 图 3 所 示 , 当 
程 秋 应 
a 主题 数 为 20 的 情况 下 困惑 度 达 
到 最 低 值 ,因此 谈 家 桢 遗传 谱系 
LDA 主题 建 模 的 最 优 主 题 个 数 
选 为 20。 
3000 
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3 LDA 主题 数量 与 困惑 度 分 布 图 


基于 预 处 理 后 的 数据 集 , 应 用 LDA 主题 模型 方法 ， 
对 谈 家 桢 遗传 学 领域 的 文献 数据 进行 主题 分 析 ,得 到 主 
题 - 词 分 布 。 由 于 篇 幅 有 限 , 仪 列 出 所 获得 20 个 主题 
中 具有 代表 性 的 5 个 主题 以 及 分 别 在 5 个 主题 中 权重 
最 高 的 前 15 个 单词 ,如 表 1 所 示 。 通 过 充分 了 解 遗传 学 
领域 的 研究 背景 咨询 领域 专家 ,结合 该 科研 领域 研究 
生 导 师 的 研究 方向 等 信息 ,确定 了 研究 主题 的 内 容 , 并 
对 主题 内 容 进行 “描述 "。 根 据 学 者 - 主题 分 布 , 表 2 为 
谱系 内 三 位 第 二 代 学 者 的 研究 主题 分 布 ,从 向 量 数值 可 
以 观察 出 这 三 位 学 者 的 主要 研究 方向 。 例 如 朱 立 烛 在 
“主题 15” (植物 育种 遗传 学 ) 中 分 布 值 最 大 ,通过 资料 
调查 得 知 朱 立 烛 的 研究 方向 是 水 稻 分 子 遗传 学 和 基因 
组 研究 ; 曾 益 滔 在 “主题 1”( 血液 遗传 学 ) 中 分 布 值 最 
大 ,通过 资料 调查 得 知 其 在 血红 蛋白 病 领 域 的 珠 蛋 白化 
学 ,基因 结构 和 功能 ,以 及 地 中 海 贫血 基因 治疗 等 方面 
的 研究 成 绩 卓 著 ; 冯 卉 举 在 “主题 7”( 基因 组 学 ) 中 分 布 
值 很 大 ,调查 资料 得 知 其 师 从 施 立 明 , 主 要 是 致力 于 研究 
真 核 细胞 染色 体 结构 与 功能 细胞 分 类 学 和 核 型 进化 。 

这 里 选取 第 子 数 量 最 多 的 第 二 代 代 表 性 学 者 “ 朱 
立 烛 " 为 例 ,分 析 其 与 子 代 学 生 之 间 的 主题 相似 度 。 表 
3 列 出 了 朱 立 煌 与 子 代 学 生 主 题 相 似 度 前 5 位 与 后 5 
位 的 数据 。 对 全 部 数据 进行 计算 得 到 谱系 内 成 员 的 相 
似 度 处 于 [0.487,0.747] 区 间 内 。 
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表 1 谈 家 桢 学 术 谱 系 主题 - 词 分 布 
第 1 类 :血液 遗传 学 红 和 蛋白 ,贫血 、 地 中 海珠 蛋白 ,Hb( 血红 蛋白 ) .小 鼠 ,转基因 、 患 者. 链 、 胚 胎 DNA 、 产 前 诊断 .胎儿 、 家 系 、 性 别 
第 4 类 :植物 遗传 学 FARKE THE 群落 .土壤 多样 性 、 酯 酶 .中 国 、 农 田 物种. 草 , 普 野 种子 爪哇、 生长 
第 7 类 :基因 组 学 染色 体 ` 细 胞 核 型 ,染色 ,畸变 .SC( 细胞 分 裂 ) ,群体 ,着 丝 点 、 联 会 .复合 体 .着 丝 粒 ,动物 ,多 态 性 .mtDNA ,遗传 学 
第 12 类 :动物 遗传 学 Hy ,多 态 性 、 限 制 性 多样 性 、 黄 牛 动物 群体 差异 、 染 色 体 、mtDNA 物种、 血清、 起 源 、 地 方 


第 15 类 :植物 育种 遗传 学 水 稳 \ 标 记 、 染 


色 体 、 群 体 、 定 位 、 形 ) 


大 .QTL\ 品 种 杂交、 图 谱 \ 稳 基因 组 、 突 变 体 、 籼 稻 、 抗 性 ,粳稻 


表 2， 谈 家 桢 学 术 谱系 作者 - 主题 分 布 
主题 分 布 概率 值 x104 
ID 姓名 
名 1 类 :血液 遗传 学 ”第 4 类 :植物 遗传 学 。 第 7 类 :基因 组 学 ”第 12 类 :动物 遗传 学 第 15 类 :植物 育种 遗传 学 
1 朱 立 煌 12.4 1 266.4 12.4 12.4 6 122.9 
3 曾 益 滔 5 968.08 24.9 98.6 98.6 12.4 
8 冯 罚 举 12.4 12.4 9 468.24 9 468.24 24.9 


RI 朱 立 煌 学 术 谱 系 作者 主题 相似 度 


m 前 十 名 后 十 名 
姓名 主题 相似 度 排名 姓名 主题 相似 度 
尚 俊 军 öm I essi ame Ta 
韦 丽 荣 0. 688 38 nns 0.546 
毕 高 峰 0. 676 39 赵 彬 0.543 
甘 强 0. 665 40 EHS 0. 542 
孟 征 0. 663 41 李 仕 贵 0. 536 
LM oee 42 唐 家 斌 0. 535 


N pu 炎 家 桢 为 核心 的 学 术 谱 系 代 际 间 知 识 传承 
E- 

人 三 在 生物 学 理论 中 ,遗传 是 指 子 代 在 连续 系统 中 重 
复 赤 代 的 特性 和 特征 (性 状 ) 的 现象 ,其 实质 是 子 代 承 
接 案 代 的 遗传 物质 - 基因 (决定 生物 性 状 ) ,基因 的 传 
递 即 为 遗传 。 在 世代 延续 过 程 中 ,基因 的 突变 使 得 子 
RURA 出 非 同 于 亲 代 的 性 状 ,这 种 现象 即 为 变 
。 知 识 被 认为 是 研究 过 程 中 由 老师 ( 亲 代 ) 通过 
口述 面授 等 各 种 方式 传递 给 学 生 ( 子 代 ) 的 基因 , 笔 
者 借鉴 生物 学 中 的 遗传 和 变异 的 概念 ,将 老师 与 学 生 

之 间 以 知识 为 代表 的 研究 方向 的 延续 视 之 为 谱系 内 知 
识 的 “遗传 ”, 将 学 生 在 获得 知识 后 在 随后 的 学 术 生 涯 
中 研究 方向 的 转变 视 为 谱系 内 的 知识 “变异 ”。 

主题 相似 度 具 备 连续 值 域 特性 ,为 了 方便 识别 师 

生 知识 传承 与 其 学 术 绩 效 的 相关 性 ,这 里 借鉴 统计 学 


异 TH 


这 
四 分 位 距 的 知识 。 四 分 位 距 (Interquartile Range, 
IQR) ,又 称 四 分 差 。 是 描述 统计 学 中 的 一 种 方法 ,以 
确定 第 三 、 四 分 位 数 区 间 和 第 一 、 二 分 位 数 区 间 的 区 
别 。 与 方差 ,标准 差 一 样 ,四 分 位 距 方 法 表示 统计 资料 
中 各 变量 的 分 散 情 形 ,但 四 分 差 更 多 为 一 种 稳健 统计 
( Robust Statistic)。 因 此 使 用 四 分 位 距 方 法 对 知识 传 
承 中 的 “遗传 ”与 “变异 ”进行 识别 和 划分 具有 统计 学 
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意义 。 规 定 以 总 样本 主题 相似 度 变 化 区 间 的 前 1/4. 值 
域 定 义 为 知识 传承 中 的 “变异 区 间 ”, 主题 相似 度 处 在 
该 区 间 的 学 者 定义 为 “变异 学 者 ” ;将 总 样本 主题 相似 
度 变化 区 间 的 后 1/4. 值 域 定义 为 知识 传承 中 的 “遗传 
区 间 ”, 主题 相似 度 处 在 该 区 间 的 学 者 定义 为 “遗传 学 
者 ”实际 上 知识 传承 中 的 遗传 与 变异 是 相对 的 ,遗传 
学 者 存在 一 定 程度 的 研究 主题 变异 ,但 变异 程度 相对 
较 小 ;变异 学 者 亦 存在 一 定 的 研究 主题 遗传 ,但 遗传 程 
度 相 对 较 小 ) 。 根 据 上 述 确定 研究 主题 遗传” 与“ 变 
异 ” 的 方法 ,计算 出 遗传 与 变异 的 主题 相似 度 区 间 , 如 
图 4 所 示 : 


代 际 间 


土 题 相似 度 非 喧 传 非 变异 


谈 家 桢 学 术 谱 系 遗 传 与 变异 的 主题 相似 度 


可 以 看 出 , 朱 立 煌 所 延续 的 学 术 谱 系 内 有 2 位 子 
代 成 员 存在 研究 主题 遗传 现象 ,有 7 位 子 代 成 员 发 生 
了 研究 方向 的 变异 。 总 体 来 看 ,21 位 子 代 成 员 存在 研 
究 主题 遗传 的 现象 ,有 34 位 子 代 成 员 发 生 了 研究 方向 
的 变异 ,分 别 占 比 8.97% 和 14.53%。 这 54 位 学 者 与 
其 老师 的 主题 相似 度 如 表 4 所 示 。 谱 系 树 包含 以 谈 家 
桢 及 其 直系 学 生 为 核心 的 共 22 个 学 术 分 支 ,不 同 分 支 
三 类 学 者 的 分 布 数量 与 比例 见 图 5。 


图 4 


一 般 来 讲 ,学 生 未 获得 学 位 之 前 PPA EE 

随 老师 脚步 的 ,因此 学 生 毕 业 之 前 的 研究 主题 通常 与 
老师 一 致 ,变异 产生 的 原因 显然 来 自 于 学 生 毕 业 之 后 
j 预 处 理 后 的 第 二 类 


研究 主题 发 生 的 变化 。 因 此 , 运 
样本 作为 LDA 主题 模型 的 输入 ,具体 过 程 如 下 :中 将 
一 位 学 者 的 所 有 文献 根据 甚 单 业 时 间 点 与 发 表 时 间 
点 的 划分 为 毕业 前 发 表 文 献 集 与 毕业 后 发 表 文 献 集 ; 
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RA ， 谈 家 桢 学 术 谱系 中 “遗传 学 者 "与 变异 学 者 "信息 


应 的 主题 分 布 向 量 P, 和 P, ;@@ 通 过 计算 P, I P, 的 JS 
距离 ,确定 A, 和 B, 的 主题 相似 度 ,最 后 即 得 到 学 者 i 


学 者 导师 主题 “ 遗传/ | 学 者 导师 主题 遗传 / 
姓名 姓名 “相似 度 ”变异 姓名 姓名 ”相似 度 x 
宁 云 山 ” 曾 义 滔 0.747 ”遗传 |E WK 0.512 变异 
陈云 弟 ” 曾 义 滔 0.539 变异 杨扬 WEF 0.542 变异 
RRE AR 0.726 ”遗传 | 孙 晓 平 ” 施 履 吉 0.537 ”变异 
HUHH (PAA 0.719 ”遗传 X RR 0.726 E 
朱 海 英 ” 依 继 梁 ”0.699 ”遗传 | rU Af 谈 家 桢 0.712 遗传 
KX WAA 0.695 遗传 || BRE KZ 0.687 ”遗传 
姚 真 真 ” 传 继 梁 ”0.531 变异 D 任 大 明 RAH 0.547 ”变异 
FKR WARE 0.494 ”变异 | de^ iR 0.5322 ”变异 
陈 坚 MAk 0.489 ”变异 | Ji ZW 0.502 变异 
房 卫 平 ” 季 道 藩 ”0.499 ”变异 | fHAEUR 谈 家 桢 0.496 ”变异 
0.719 ”遗传 IEE Eme 0.693 遗传 
0.533 变异 | 冯 登 敏 ” 薛 京 伦 0.543 变异 
0.732 ”遗传 | REE 杨 金 水 ”0.694 ”遗传 
0. 721 遗传 || 姜 瑞 华 ” 杨 金水 ”0.498 变异 
0.704 ”遗传 | RRR BEJ 0.717 ”遗传 
0.551 变异 WBE ”起 寿 元 0.704 ”遗传 
0.507 ”变异 | XW ” 赵 寿 元 0.694 ”遗传 
0.496 ”变异 | FF ” 赵 寿 元 0.531 ”变异 
0.487 ”变异 [eA Rik 0.700 ”遗传 
0.688 ”遗传 | BWR R 0.688 ”遗传 
0.537 ”变异 | BB] fe RM 0.552 变异 
0.524 ”变异 | 欧阳 振 乾 朱 立 煌 0.55 变异 
0.519 ”变异 HO ” 朱 立 煌 ”0.546 ”变异 
0.512 ”变异 赵 彬 RE 0.5433 ”变异 
0.499 ”变异 | 王 世 全 Ri 0.542 ”变异 
0.701 ”遗传 | 李 仕 贵 朱 立 煌 ”0.536 ”变异 
0.545 ”变异 [| JHAOK Rrk 0.535 ”变异 
0.533 ”变异 
Cka E V 
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学 者 数量 
= 遗传 学 者 叶 F 遗 传 非 变 异 学 者 = 变异 学 者 


图 5 谈 家 桢 学 术 谱系 各 分 支 三 类 学 者 数量 统计 图 


@ 将 学 者 1 毕业 前 文献 集 与 毕业 后 文献 集 分 别 作为 两 
个 不 同 实体 A; 和 B, ,利用 LDA 模型 获取 A, 和 B, 所 对 


毕业 前 后 的 主题 相似 度 。 如 图 6 所 示 ,学 生 毕 业 前 后 
主题 相似 度 的 变化 区 间 为 [0. 504 ,0.780 ] ,遗传 与 变异 
的 主题 相似 度 区 间 分 别 为 [0.711,0. 780 ] 和 [0. 504, 


0.573], 
0.504 0.573 0711 078 
毕业 前 后 a EJET nA ; » 
主题 相似 度 + 变异 一 站 非 遗 传 非 变 异 遗传 


6 谈 家 桢 遗传 学 学 术 谱系 遗传 与 变异 的 
主题 相似 度 区 间 划 分 


同 理 计 算出 学 者 毕业 前 后 研究 主题 发 生 遗 传 与 变 
异 的 比例 分 别 为 9.66% 和 24.14% 。“ 遗 传 学 者 "有 14 
人 ,“ 变 异 学 者 "有 35 人 。 很 明显 ,与 代 际 间 学 术 传承 
所 得 的 研究 主题 遗传 变异 结果 相 比 ,在 学 生 自 身 研 究 
主题 毕业 前 后 变化 层面 上 ,“ 遗 传 学 者 ”比例 基本 持 
平 ,而 “变异 学 者 ”的 比例 有 明显 的 提升 。 


4 ”以 谈 家 桢 为 核心 的 学 术 谱 系 内 研究 


主题 相似 度 与 学 术 绩 效 的 相关 性 分 析 
本 研究 试图 寻找 出 以 文本 内 在 联系 为 代表 的 知识 
传承 是 否 对 学 者 的 职业 生涯 有 影响 ,如 有 影响 ,知识 传 


承 在 何 种 程度 以 何 种 方式 影响 人 才 的 职业 生涯 发 展 ? 
为 此 ,笔者 对 学 术 谱系 内 成 员 的 知识 传承 程度 与 其 个 
人 成 长 的 科研 绩效 进行 了 相关 性 分 析 , 这 里 以 h 指数 
作为 衡量 学 术 谱 系 成 员 的 科研 绩效 评价 指标 。 
如 图 7 中 所 示 , 图 7(1) 和 图 7(2) 展 示 的 是 以 谈 家 
桢 为 核心 的 学 术 谱系 内 学 者 代 际 间 主 题 相 似 度 与 其 h 
指数 的 分 布 图 ,图 7(3) 和 图 7(4) 展示 的 是 学 术 谱 系 
学 者 毕业 前 后 主题 相似 度 与 其 h 指数 的 分 布 图 。 为 
了 方便 分 析 研 究 结果 ,将 学 者 代 际 间 研 究 主题 相 似 度 
与 相应 的 h 指数 数据 称 为 组 合 1 ,学 者 毕业 前 后 研究 主 
题 相 似 度 与 相应 的 h 指数 数据 称 为 组 合 2。 图 中 不 同 
颜色 区 域 分 别 代 表 “ 变 异 学 者 ”( Variation)“ 非 遗传 非 
变异 学 者 ”( Non-hereditary Non-variation) “遗传 学 者 ” 
( Hereditary ) 。 
图 7(1) 与 图 7(3) 两 图 分 别 是 组 合 1 与 组 合 2 数 
据 的 散 点 分 布 ,可 以 看 出 ,图 7(1) 中 点 的 分 布 具 有 到 
集 特性 ,71% 的 学 者 的 相似 度 落 在 (0.55 ,0. 65) Bogen 
区 间 内 ;遗传 学 者 “ 非 遗 传 非 变异 学 者 “变异 学 者 ” 
人 数 所 占 比 例 分 别 为 8.97% .76.50% 14.53% ,h 指 
数 均值 分 别 为 5.42 .4.54.7.10 ,可 以 看 出 “遗传 学 者 ” 
“变异 学 者 ” 人数 虽然 占 比较 少 ， 但 相对 于 “ 非 遗传 
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Hereditary 


要 明显 高 于 “ 非 遗 传 且 非 变 异 ” 的 学 
者 ,表明 科研 绩效 较 高 的 人 群 不 是 人 
数 最 多 的 “ 非 遗 传 与 非 变异 ”学 者 ,而 
恰恰 正 是 处 于 少数 群体 的 遗传 学 者 和 
变异 学 者 。 从 图 7(4) 中 可 以 看 出 , 拟 
合 后 指数 的 均值 在 学 生 毕 业 前 后 主 
题 相 似 度 的 变化 不 明显 ,始终 保持 在 
4 -8 的 水 平 。 

上 述 代 际 间 的 研究 主题 相似 度 揭 
示 了 学 生 整 体 研究 主题 和 老师 研究 主 


NB 0.50 0.55 0.60 0.65 0.70 = 0.80 


.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 O40 ge 0.50 0.55 0.60 0.65 0.70 0.75 0.80 


topic similarity 


7 学 者 主题 相似 度 与 h 指数 分 布 图 


非 变 异 学 者 "具有 更 高 的 学 术 绩 效 ;h 指数 在 5 以 上 的 

效 作者 ”在 三 个 区 间 内 的 比例 分 别 为 3. 00% 、 
5620296 35.38% ,可 以 看 出 “变异 学 者 ”中 高 绩效 占 比 
iila. 同样 ,在 图 7(2) 中 “遗传 学 者 ”“ 非 遗传 非 
变异 学 者 "“ 变 异 学 者 ”人 数 所 占 比 例 分 别 为 9.66% 、 
66/202; .24. 1496 , h 指数 均值 分 别 为 5. 42,5. 52, 
5 个: 高 绩 效 作者 比例 分 别 为 8. 00% , 76. 00% 、 
C d ,可 以 看 出 ， 遗 传 学 者 "与 “变异 学 者 "在 高 绩 

学 者 群体 中 所 占 比例 明显 高 于 二 者 在 谱系 内 总 

kh 所 此 全 另外 ,为 了 进一步 寻找 学 者 

相似 度 与 其 h 指数 之 间 是 否 存在 相关 性 ,将 所 有 
学 ' 展 根据 其 主题 相似 度 区 间 划 分 至 30 等 份 ,在 每 个 小 
区 和 上 取 一 个 点 ,该 点 的 横 轴 为 该 区 间 所 对 应 的 h 指 
数 的 均值 , 纵 轴 值 取 区 间 中 间 点 对 应 的 数值 。 依 照 该 
2. 分 别 对 组 1 与 组 2 两 组 数据 进行 处 理 后 得 到 散 
点 图 ,如 图 7(2) 和 图 7(4) 所 示 , 进 一 步 对 散 点 图 进行 
曲线 拟 合 ,图 中 蓝 色 实 线 是 对 散 点 图 进行 四 次 多 项 式 
拟 合 后 的 结果 ,四 次 多 项 式 分 别 为 : 

y, = — 12823. 5x* + 18522. 5x? — 9533. 4x”+ 2050. 1x 
-147.8 

y, 24934. 2x* — 7555. 2a? + 4201. 7x? — 1005. 8x + 
93. 0 

y, 拟 合 后 的 R =0. 699 y, 拟 合 后 的 R =0. 068。 

评价 最 小 二 乘法 进行 的 曲线 拟 合 优 度 的 标准 是 
R? R? 值 越 大 , 拟 合 效果 越 好 ,R- 越 小 , 拟 合 效 果 越 差 。 
R^ 取 值 介 于 0 到 1 之 间 。 显 然 ,y, 拟 合 效 果 较 好 。 从 
图 7(2) 可 以 看 出 ,曲线 拟 合 后 的 分 布 是 扁平 止 型 分 
布 , 即 中 间 低 ,两 边 高 。 四 型 分 布 代表 着 代 际 间 主 题 相 
似 度 处 于 “遗传 ”与 “变异 ”区 间 内 的 学 者 的 学 术 绩 间 
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题 的 变化 特征 ,未 能 回答 学 生 毕 业 以 
p Ela 是 否 存在 差异 的 问 

。 为 此 ,笔者 还 进一步 对 学 生 毕 业 
EE eb 
i 首先 选取 学 生 毕 业 后 的 文献 集 与 老师 文献 集 进行 

主题 抽取 ,并 计算 两 者 之 间 的 主题 相似 度 , 进 而 将 主题 
相似 度 与 指数 进行 相关 性 分 析 , 研 究 结 果 如 图 7(5) 
和 图 7(6) 所 示 。 从 图 中 可 以 看 出 ,学 生 毕 业 以 后 研究 
主题 与 老师 研究 的 相似 度 区 间 为 (0. 27 ,0. 74) ,相似 度 
取 值 范围 增加 ,这 是 由 于 移 除了 两 实体 对 照 组 的 重复 
文本 ( 师 生 在 研究 生 期 间 共 同 发 表 的 文章 ) 影 响 …“ 遗 
传 学 者 ”“ 非 遗传 非 变异 学 者 ”变异 学 者 ”所 占 比例 分 
别 为 6. 20% 、68. 21% 、25. 5896 , h 指数 均值 分 别 为 
6. 62 4. 81 7.24, 可 以 看 出 “遗传 学 者 ”和 “变异 学 者 ” 
的 学 术 绩 效 要 明显 高 于 “ 非 遗 传 非 变 异 学 者 ” Sh 指数 
在 5 以 上 的 高 绩效 作者 在 三 个 区 间 内 所 占 比例 分 别 为 
10. 2596 .57. 69% .32. 05% ,可 以 看 出 与 组 合 1 结论 相 
似 ， 遗 传 学 者 "与 “变异 学 者 "在 高 绩效 科研 群体 中 所 
占 比例 相 较 于 二 普 系 内 总 体 学 者 群体 中 所 占 比例 
有 所 提高 ; 拟 合 曲线 同样 具有 扁平 凸 型 分 布 ,再 次 证 实 
了 知识 “遗传 "与 “变异 ”有 助 于 学 术 绩 效 提 高 的 结论 ， 
其 中 : 

y, = -3762.8x' +6857. 6x — 4464. 7x! + 1223. 1x 
-112.73 

y 拟 合 后 的 R 值 为 0.70。 


5 谈 家 桢 学 术 谱 系 内 遗传 与 变异 学 者 


的 研究 主题 分 布 


上 述 研究 显示 ， 遗 传 学 者 与“ 变 
业 生 涯 发 展 过 程 中 取得 了 相对 较 高 的 学 术 绩 效 。 同 


异 学 者 "在 其 职 


时 ,笔者 对 与 这 两 种 类 型 学 者 的 研究 主题 也 产生 了 浓 
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厚 的 兴趣 ,他 们 的 研究 主题 是 何 种 分 布 ? 是 否 存在 显 
著 差 别 ? 针对 上 述 疑 问 ,进一步 利用 主题 模型 方法 对 
“遗传 学 者 "和 “变异 学 者 ”的 研究 主题 分 布 进行 了 具 
体 分 析 。 

LDA 主题 模型 获得 的 9 的 最 大 似 然 估计 值 表示 每 
个 学 者 的 主题 分 布 ,把 学 者 文献 集 扩展 到 谱系 内 的 学 
者 群 ,同样 可 以 求 出 该 群体 语 料 的 主题 分 布 0。 设 9 
为 学 者 d 的 主题 上 所 占 的 比例 , 则 学 者 群 s 在 主题 上 
的 强度 6; 如 公式 (6) 所 示 , 其 值 介 于 0 到 1 zm RI 

rr Xia 


i^ 公式 (6) 


用 每 个 主题 的 表示 目标 学 者 群体 s 中 主题 上 的 
强度 ,从 而 可 以 得 出 目标 谱系 人 群 的 主题 分 布 ,如 图 8 
所 示 。 其 中 , 蓝 色 代表 谈 家 桢 学 术 谱 系 内 根据 代 际 | 
汪 蝇 相似 度 计 算得 出 的 “遗传 学 者 ”"。 同 理 ,绿色 代表 
“ 醒 异 学 者 " ,红色 代表 学 术 谱系 全 体 学 者 群体 。 从 图 
展 二 以 看 出 :DO 上 述 三 个 群体 主题 强度 最 大 的 都 是 主 
是 过 (细胞 遗传 学 ) “遗传 学 者 “变异 学 者 “全 体 学 
项 在 该 主题 的 强度 分 别 为 0. 53 .0. 27 .0. 33 ,经 过 次 
话 训 知 该 研究 主题 是 遗传 学 的 基础 性 研究 ,是 进行 其 
他 吾 究 的 前 提 ;@*“ 泪 传 学 者 "的 研究 主题 主要 分 布 在 
amaS) .主题 14( 细 胞 遗传 学 ) .主题 17 
(细胞 遗传 学 ) ,主题 20( 群体 遗传 学 ) ,其 他 主题 
仿 稚 很 少 ;@* 总 体 学 者 "与 “遗传 学 者 "的 研究 主题 分 
布 缀 为 分 散 ,分 布 相对 “遗传 学 者 "较为 均匀 ; 国 部 分 
“ 焉 兴学 者 "致力 于 植物 基因 组 研究 .医学 遗传 学 研 
究 ( 抗 毒 领域 应 用 研究 ,而 “遗传 学 者 "在 上 述 领域 没 
有 涉足 ;加 部 分 “遗传 学 者 "致力 于 动物 遗传 学 的 研 
究 ,而 “变异 学 者 "在 该 领域 几乎 很 少 有 研究 。 


E| 


06 关 一 一 
BH Hereditary 
ENS Variation 
0.5 EE Total 
04 
Fz 
F 
& 03 
3 
£ 
0.2 
i ll | 
0.0 NIST 用 E | 
- A AtA 3X D 00 O On 0 mo cow D D o0 ON OC 
S 3 9.9.9.9 .9 .9 v uw uc v ud wv D 
& E &£ E E E EF E E & & & &'ECRCRCRCR EE 
Pow nme Eo eT uw PORT S "oet on mede cb Ee RSS 
topic number 


8 学 者 群体 主题 分 布 图 


6 ”结论 与 展望 


笔者 运用 LDA 主题 模型 研究 了 以 谈 家 桢 为 核心 
的 遗传 学 学 术 谱 系 内 的 主题 分 布 ,在 语义 层面 探索 了 
该 谱系 成 员 的 研究 主题 分 布 ,通过 计算 学 者 研究 主题 
的 相似 度 将 学 者 划分 为 “遗传 学 者 ”“ 非 遗传 非 变 异 学 
者 “变异 学 者 ”三 种 类 型 ,进一步 将 主题 相似 度 与 学 
者 的 科研 绩效 进行 相关 性 分 析 ,研究 结果 表明 :谱系 
内 成 员 的 科研 绩效 与 代 际 间 研 究 主 题 的 变化 程度 具有 
相关 性 ,与 学 者 毕业 前 后 研究 主题 的 变化 度 无 关 ;@) 
“遗传 学 者 "与 “变异 学 者 ”的 平均 科研 绩效 要 明显 高 
于 "* 非 遗传 与 非 变异 学 者 ”的 平均 科研 绩效 , 即 一 定 程 
度 上 的 “ 尊 承 前 贤 ” 与 “ 开 疆 拓 土 "有 利于 提升 学 者 的 
科研 绩效 ;(@@" 遗传 学 者 ”" 和 “变异 学 者 ”的 研究 主题 分 
布 有 较 大 差异 ,总 体 来 看 ,细胞 遗传 学 依然 是 遗传 学 领 
域 中 的 基础 研究 领域 ,三 类 学 者 的 研究 都 需要 该 领域 
知识 积累 的 支撑 。 

本 研究 有 效 地 在 语义 层面 提取 了 学 者 研究 主题 ， 
并 通过 JS 距离 测度 了 谈 家 桢 学 术 谱 系 内 代 际 间 的 主 
题 相 似 度 , 相 较 于 以 往 定 性 研究 提高 了 研究 的 可 信和 度 。 
基于 研究 主题 的 人 才 发 展 路 径 研 究 有 助 于 人 才 成 长 规 
律 的 揭示 和 人 才 政 策 的 制定 ,科研 评价 体系 和 科研 激 
励 机 制 应 该 充分 考虑 知识 传承 的 “遗传 基因 ”, 给予 继 
续 坚 守 在 同一 个 研究 方向 的 科研 人 员 以 较 长 时 间 的 研 
究 周 期 ,以 促进 其 在 扎实 的 研究 基础 上 进行 深入 的 科 
学 创新 ; 男 一 方面 鼓励 研究 人 员 在 知识 传承 的 基础 上 
涉猎 新 兴 领 域 或 交叉 领域 ,给 予 资金 资助 或 资源 扶持 ， 
帮助 其 在 知识 转型 领域 取得 更 大 进步 。 

本 文 的 研究 仅 限于 对 遗传 学 领域 学 术 谱 系 知识 传 
承 的 研究 ,研究 结果 具有 一 定 的 领域 局 限 性 ,今后 将 考 
虑 学 科 的 差异 性 ,进一步 对 其 他 研究 领域 学 术 谱 系 的 
知识 传承 进行 探索 和 研究 。 同 时 ,中 外 科学 研究 领域 
的 特征 差异 是 显而易见 的 ,未 来 将 进一步 对 国外 学 术 
谱系 知识 传承 的 特征 进行 深入 考察 和 研究 。 
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Research on Knowledge Inheritance of Academic Pedigree Based on LDA Topic Model 
一 一 人 Case Study of Genetics Pedigree with the Core of Tan Jiazhen 
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Abstract: [ Purpose/significance | Academic pedigree promotes science development by the way of knowledge in- 
heritánce. It is of great reference value to study the characteristics of knowledge transmission and explore the effect of in- 
heffnce model on academic output, and it is of great reference value for the relevant departments to find out the law of 
uim growth and formulate scientific and technological personnel training policy. [ Method/process] By the method of 
LDX topic model, this paper took the journal literature of genetics published in CNKI database as research object, and 
quoted the concept of "hereditary" and "variation" in biology. Then, according to the topic similarity, we divided pedi- 
gree members into "hereditary scholars" , "variation scholars" and “non -hereditary non-variation scholars" , and analyzed 
the academic performance of these three kinds of scholars. [ Result/conclusion | The results show that the academic per- 
formance of "hereditary scholars" and "variation scholars" in the academic pedigree of Tan Jiazhen is relatively high ; The 
number of “ non -hereditary non -variation scholars" is the largest, but their academic performance is relatively low ; For dif- 
ferent topics, the distribution of "variation scholars" and "hereditary scholars" is significantly different. 
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